查看原文
其他

stata命令cf,数据清洗双录双校利器


在收集研究数据时,虽然计算机辅助调查技术的应用已经越来越流行,但是纸质调查问卷的地位还是很坚挺,因为纸质调查问卷也有自己的优势。当以纸质问卷收集数据时,就涉及数据录入的问题。


确保纸质调查问卷的信息和录入后的数据完全一致是一个非常大的挑战,因为是人就会犯错,尤其是在做重复性工作的时候。中间有很多环节会造成数据失真,主要包括两大方面:录入员对问卷答案的理解(如答题人笔迹潦草),数据录入时候的手误(如错误输入)


为了确保数据质量,有两大应对措施:第一是编码,在数据录入前必须有多人对问卷审查后对其编码,消除任何影响录入员录入的不确定因素,录入员的工作仅仅是录入,不包括解释数据;第二是双人双次录入,设计好待录入的空数据集后(推荐为数据集和变量加上合适的注释),数据录入时依照双盲录入原则,由两名录入员进行平行录入,录入完毕还应由专人进行再次核查。


数据录入工具推荐使用EpiData Entry,它是一款非常流行的数据录入软件,使用简单、方便,功能强大,最重要的是免费,在医学和其他行业有着非常广泛的用户群体。EpiData Entry可通过设置核查文件(允许值、重复、必须录入、跳转)来有效地对数据录入质量进行控制,且可以对两个数据文件进行一致性检查。


本文主要介绍如何使用Stata对双次录入后的数据集进行一致性检查。


1compare files


对两个数据集进行一致性检查的Stata命令为cf(compare files),对应的Stata菜单操作方式为Data → Data utilities → Compare two datasets


Stata是这样描述duplicates命令的:cf命令用来比较主从数据集是否存在某些变量上差别(只比较变量值,标签、注释及特征等不在比较之列)。cf的返回值若为空,说明两个数据集是一致的;cf的返回值若为9,说明两个数据集不一致。如果cf命令后加上all选项,则列出全部结果(Stata默认只列出有差异的结果);如果cf命令后加上verbose选项,则列出不一致的结果清单。


根据cf命令的结果,在核对原始问卷修正数据后再进行一致性检查,直至两个数据集完全一致。然后,就可以开始数据清理(数据检查和数据纠正)工作了。



2数据结构查看



通过逐个对变量的取值进行检查,以搜索数据集中存在的可能的错误或问题。首先对数据集进行描述,总览一下数据集。


描述当前数据集的Stata命令为describe,对应的Stata菜单操作方式为Data→Describe data→Describe data in memory。描述某个数据集的Stata命令为describe using,对应的Stata菜单操作方式为Data→Describe data→Describe data in file。Stata是这样描述describe命令的:describe命令显示当前数据集或者指定数据集的概况。


describe命令支持通配符。通配符是一种特殊语句,主要有星号(*)和问号(?),用来模糊搜索文件。当查找文件夹时,可以使用它来代替一个或多个真正的字符;当不知道真正字符或者懒得输入完整名称时,常常使用通配符代替一个或多个真正的字符。


如果要查看数据集中所有的变量,也可以用ds命令。描述某个数据集的Stata命令为ds,对应的Stata菜单操作方式为Data → Describe data → Compactly list variable names。Stata是这样描述ds命令的:ds命令简略或详细地显示当前数据集的变量情况。如不加任何选项,则显示的是所有变量,等价于“describe, simple”;若选择detail选项,则显示变量的详细信息;若选择alpha选项,变量名称将以字母顺序排序。更多选项可查看帮助 help ds。


对分类变量的取值进行检查的Stata命令为tabulate,对应的Stata菜单操作方式为Statistics → Summaries, tables, and tests → Tables → One-way tables。Stata是这样描述tabulate命令的:tabulate命令用来生成一个一维频数表。若选择missing选项,则显示缺失值;若选择nolabel选项,则不显示变量值标签。



3数据更正


 发现问题后需要解决问题,前提是你能接触到原始记录。


如何记录这些问题并进行更正。第一步是记录问题,推荐通过命令注释来记录,以增加命令的可读性。


第二步是更正数据,也推荐通过命令来更正,并增加命令注释来记录修改过程。不推荐通过Stata的数据编辑器直接修改,因为没有记录的话,最后用户无法确定自己到底修改了没有。对数据集进行修改后,最好重新运行一下核查问题的程序,看看是否改正了。因为要重复运行命令,所以推荐大家尽可能用do文件来完成数据清理工作。



来源 | 《Stata数据统计分析教程》

作者|  廉启国


点击查看往期汇编

科研数据:

001 中国高速铁路线路&城市高铁开通数据
002 地级市面板数据1990-2019003 上市公司数据集-慈善、股权、研发、审计、高管004 地级市高新技术企业统计情况2000-2019005 碳交易、碳排放(分行业、国家、省、市、县)006 2008-2018中国上市公司政治关联原始数据007 1936-2018年全国县级以上干部数据008 地级市市长市委书记数据库009 上市公司2006-2018年资产负债收益010 各县接收上山下乡知青数量
011 832国家级贫困县摘帽数据

学习资料:

001 文献利器EndNote教程(视频-PPT)

002 SCI完整写作攻略

003 北大空间计量经济学讲义

004 博士研究计划范文

005 空间权重矩阵和杜宾模型案例数据及分析006 三阶段DEA模型理论与操作手册视频讲解007 SPSS统计分析与行业应用案例详解008 R语言学习资料009 20套学术答辩PPT模板010 实证分析大全011 Fama-French五因子模型数据和Stata代码012 Stata17 win和mac版013 Stata17MP版最新使用指南全书
计量统计:7种主流数据分析软件及经典教材推荐Stata数据清洗方法回归结果不显著可采取方法与思路面板数据汇总实证模型三步走:数据、模型、结果检验调节变量、中介变量、控制变量七种经典回归方法六种定量方法解决内生性问题(stata代码)Stata双重差分操作流程及代码交互项与异质性分析面板交互固定效应模型详解5种安慰剂检验方法详解DIDM:多期多个体倍分法案例及代码
中介效应检验程序、操作应用政策评估反事实框架及匹配方法开展政策效应评估传统PSM-DID模型改进与应用广义DID超强的政策评估工具中介效应分析的四种方式、原则、方法和应用Stata17中DID、DDD方法及使用策略DID的平行趋势检验步骤和程序
文本相似度计算及政策量化分析政策效应评估的四种主流方法详解
科研论文:经管类CSSCI南大核心来源期刊投稿方式综合社科高校学报CSSCI南大核心来源期刊投稿方式因果推断——现代统计的思想飞跃2020年中国经济学研究热点分析空间计量经济学文献综述陆铭的13个实证研究锦囊碳达峰和碳中和管理研究:进展与综述国内几篇A刊的发表经验陈强:计量经济学实证论文写作全解析刘修岩:城市经济学模型与实证方法进展与趋势刘俏:”碳中和“给经济学提出那些新问题洪永淼:大数据革命和中国经济学研究范式博士如何接受完整、全面的科研训练顶级经济学期刊青睐何种计量方法管理世界投稿经验:如何回应审稿人意见基于195篇实证论文发现期刊编辑的喜好CSSCI期刊主编:论文写作用词八条建议论文参考文献怎么引用才能通过查重给博士生论文投稿实用建议常任轨教职经济学学术刊物目录
洪永淼等:中国经济科学的研究现状与发展趋

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存